% Version control information:
%$HeadURL: http://practicas-r.googlecode.com/svn/trunk/distribuciones_graficas/distribuciones_graficas.tex $
%$LastChangedDate: 2011-12-05 12:41:27 +0000 (Mon, 05 Dec 2011) $
%$LastChangedRevision: 17 $
%$LastChangedBy: asalber $
%$Id: distribuciones_graficas.tex 17 2011-12-05 12:41:27Z asalber $

\chapter[Distribuciones de Frecuencias y Representaciones Gráficas]{Distribuciones de Frecuencias\\ y Representaciones Gráficas}

\section{Fundamentos teóricos}
Uno de los primeros pasos en cualquier estudio estadístico es el resumen y la descripción de la información contenida en una muestra. Para ello se van a aplicar algunos métodos
de análisis descriptivo, que nos permitirán clasificar y estructurar la información al igual que representarla gráficamente.

Las características que estudiamos pueden ser o no susceptibles de
medida; en este sentido definiremos una \emph{variable} como un
carácter susceptible de ser medido, es decir, cuantitativo y
cuantificable mediante la observación, (por ejemplo el peso de las
personas, la edad, etc...), y definiremos un \emph{atributo} como un
carácter no susceptible de ser medido, y en consecuencia observable
tan sólo cualitativamente (por ejemplo el color de ojos, estado de
un paciente, etc...). Se llaman modalidades a las posibles
observaciones de un atributo.

Dentro de los atributos, podemos hablar de \emph{atributos
ordinales}, los que presentan algún tipo de orden entre las
distintas modalidades, y de \emph{atributos nominales}, en los que
no existe ningún orden entre ellas.

Dentro de las variables podemos diferenciar entre
\emph{discretas}, si sus valores posibles son valores aislados, y
\emph{continuas}, si pueden tomar cualquier valor dentro de un
intervalo.

En algunos textos no se emplea el término \emph{atributo} y se
denominan a todos los caracteres \emph{variables}. En ese caso se
distinguen \emph{variables cuantitativas} para designar las que aquí
hemos definido como \emph{variables}, y \emph{variables
cualitativas} para las que aquí se han llamado \emph{atributos}. En
lo sucesivo se aplicará este criterio para simplificar la
exposición.

\subsection{Cálculo de Frecuencias}

Para estudiar cualquier característica, lo primero que deberemos
hacer es un recuento de las observaciones, y el número de
repeticiones de éstas. Para cada valor $x_i$ de la muestra se
define:
\begin{description}
\item[Frecuencia absoluta] Es el número de veces que aparece cada
uno de los valores $x_i$ y se denota por $n_i$.

\item [Frecuencia relativa] Es el número de veces que aparece cada valor $x_i$ dividido
entre el tamaño muestral y se denota por $f_i$

\[f_i=\frac{n_i}{n}\]

Generalmente las frecuencias relativas se multiplican por $100$ para
que representen el tanto por ciento.
\end{description}

En el caso de que exista un orden entre los valores de la variable,
a veces nos interesa no sólo conocer el número de veces que se
repite un determinado valor, sino también el número de veces que
aparece dicho valor y todos los menores. A este tipo de
frecuencias se le denomina \emph{frecuencias acumuladas}.

\begin{description}
\item [Frecuencia absoluta acumulada] Es la suma de las frecuencias
absolutas de los valores menores que $x_i$ más la frecuencia
absoluta de $x_i$, y se denota por $N_i$

\[N_i=n_1+n_2+\ldots+n_i\]

\item [Frecuencia relativa acumulada] Es la suma de las frecuencias
relativas de los valores menores que $x_i$ más la frecuencia
relativa de $x_i$, y se denota por $F_i$

\[F_i=f_1+f_2+\ldots+f_i\]
\end{description}

Los resultados de las observaciones de los valores de una variable
estadística en una muestra suelen representarse en forma de tabla.
En la primera columna se representan los valores $x_i$ de la
variable colocados en orden creciente, y en la siguiente columna los
valores de las frecuencias absolutas correspondientes $n_i$.

Podemos completar la tabla con otras columnas, correspondientes a
las frecuencias relativas, $f_i$, y a las frecuencias acumuladas,
$N_i$ y $F_i$. Al conjunto de los valores de la variable observados
en la muestra junto con sus frecuencias se le conoce como
\emph{distribución de frecuencias muestral}.

\begin{ejemplo}
En una encuesta a 25 matrimonios, sobre el número de hijos que
tienen, se obtienen los siguientes datos:

1, 2, 4, 2, 2, 2, 3, 2, 1, 1, 0, 2, 2, 0, 2, 2, 1, 2, 2, 3, 1, 2,
2, 1, 2.

Los valores distintos de la variable son: 0, 1, 2, 3 y 4. Así
  la tabla será:
  \[\begin{array}{|c|l|r|}
    \hline
    x_i & \mbox{Recuento} & n_i \\ \hline
    0 & \mbox{II} & 2 \\
    1 & \mbox{IIIII I} & 6 \\
    2 & \mbox{IIIII IIIII IIII} & 14 \\
    3 & \mbox{II} & 2 \\
    4 & \mbox{I} & 1 \\ \hline

  \end{array}
  \]

La distribución de las frecuencias quedaría:
  \[\begin{array}{|c|c|c|c|c|}
    \hline
    x_i & n_i & f_i & N_i & F_i \\ \hline
    0 & 2 & 0.08 & 2 & 0.08 \\ \hline
    1 & 6 & 0.24 & 8 & 0.32 \\ \hline
    2 & 14 & 0.56 & 22 & 0.88 \\ \hline
    3 & 2 & 0.08 & 24 & 0.96 \\ \hline
    4 & 1 & 0.04 & 25 & 1 \\ \hline
    \mbox{Suma} & 25 & 1 & \multicolumn{2}{c}{} \\
    \cline{1-3}
  \end{array}
  \]

\end{ejemplo}

Cuando el tamaño de la muestra es grande en el caso de
variables discretas con muchos valores distintos de la variable, y
en cualquier caso si se trata de variables continuas, se agrupan
las observaciones en \emph{clases}, que son intervalos contiguos,
preferiblemente de la misma amplitud.

Para decidir el número de clases a considerar, una regla
frecuentemente utilizada es tomar el entero más próximo a $\sqrt{n}$
donde $n$ es el número de observaciones en la muestra. Pero conviene
probar con distintos números de clases y escoger el que proporcione
una descripción más clara. Así se prefijan los intervalos
$(a_{i-1},a_i] , i=1,2,\ldots,l$ siendo $a=a_0<a_1<....<a_l=b$ de
tal modo que todos los valores observados estén dentro del intervalo
$(a, b]$, y sin que exista ambig\"{u}edad a la hora de decidir a qué
intervalo pertenece cada dato.

Llamaremos \emph{marca de clase} al punto medio de cada intervalo.
Así la \emph{marca de la clase} $(a_{i-1},a_i]$ es el punto medio
$x_i$ de dicha clase, es decir

\[  x_i=\frac{a_{i-1}+a_i}{2} \]

En el tratamiento estadístico de los datos agrupados,
todos los valores que están en una misma clase se consideran
iguales a la marca de la clase. De esta manera si en la clase $(a_{i-1},a_i]$ hay $n_i$ valores
observados, se puede asociar la marca de la clase $x_i$ con esta
frecuencia $n_i$.



\subsection{Representaciones Gráficas}

Hemos visto que la tabla estadística resume los datos de una
muestra, de forma que ésta se puede analizar de una manera más
sistemática y resumida. Para conseguir una percepción visual de las
carac\-terísticas de la población resulta muy útil el uso de gráficas
y diagramas. Dependiendo del tipo de variable y de si trabajamos con
datos agrupados o no, se utilizarán distintos tipos.


\subsubsection{Diagrama de barras y polígono de frecuencias}

Consiste en representar sobre el eje de abscisas de un sistema de
ejes coordenados los distintos valores de la variable $X$, y
levantar sobre cada uno de esos puntos una barra cuya altura sea
igual a la frecuencia absoluta o relativa correspondiente a ese
valor, tal y como se muestra en la figura \ref{g:diagramaabsolutas}.
Esta representación se utiliza para distribuciones de frecuencias
con pocos valores distintos de la variable, tanto cuantitativas como
cualitativas, y en este último caso se suele representar con
rectángulos de altura igual a la frecuencia de cada modalidad.

En el caso de variables cuantitativas se puede representar
también el diagrama de barras de las frecuencias acumuladas, tal y como se muestra en
la figura \ref{g:diagramaacumuladas}.

Otra representación habitual es el \emph{polígono de frecuencias}
que consiste en la línea poligonal cuyos vertices son los puntos
$(x_i,n_i)$, tal y como se ve en la figura
\ref{g:poligonoabsolutas}, y si en vez de considerar las frecuencias
absolutas o relativas se consideran las absolutas o relativas
acumuladas, se obtiene el \emph{polígono de frecuencias acumuladas},
como se ve en la figura \ref{g:poligonoacumuladas}.

\begin{figure}[h!]
\centering
\subfigure[Diagrama de barras de frecuencias absolutas.]{\label{g:diagramaabsolutas}
\scalebox{0.65}{\input{distribuciones_graficas/img/diagrama_barras_frecuencia_absoluta}}}\qquad
\subfigure[Diagrama de barras de frecuencias absolutas acumuladas.]{\label{g:diagramaacumuladas}
\scalebox{0.65}{\input{distribuciones_graficas/img/diagrama_barras_frecuencia_acumulada}}}\\
\subfigure[Polígono de frecuencias absolutas.]{\label{g:poligonoabsolutas}
\scalebox{0.65}{\input{distribuciones_graficas/img/poligono_frecuencia_absoluta}}}\qquad
\subfigure[Polígono de frecuencias absolutas acumuladas]{\label{g:poligonoacumuladas}
\scalebox{0.65}{\input{distribuciones_graficas/img/poligono_frecuencia_acumulada}}}
\caption{Diagramas de barras y polígonos asociados para datos no
agrupados.}
\end{figure}

\subsubsection{Histogramas}

Este tipo de representaciones se utiliza en variables continuas y en
variables discretas en que se ha realizado una agrupación de las
observaciones en clases. Un \emph{histograma} es un conjunto de
rectángulos, cuyas bases son los intervalos de clase $(a_{i-1},a_i]$
sobre el eje $OX$ y su altura la correspondiente frecuencia absoluta
, relativa, absoluta acumulada, o relativa acumulada, tal y como se muestra en la figuras~\ref{g:histogramaabsolutas} y \ref{g:histogramaacumuladas}.

Si unimos los puntos medios de las bases superiores de los rectángulos del histograma, se obtiene el \emph{polígono de frecuencias} correspondiente a datos agrupados (figura~\ref{g:poligonoabsolutasagrupado}).

El polígono de frecuencias también se puede utilizar para representar las frecuencias acumuladas, tanto absolutas como relativas. En este caso la línea poligonal se traza uniendo los
extremos derechos de las bases superiores de los rectángulos del
histograma de frecuencias acumuladas, en lugar de los puntos
centrales (figura~\ref{g:poligonoacumuladasagrupado}).

\begin{figure}[h!]
\centering
\subfigure[Histograma de frecuencias absolutas.]{\label{g:histogramaabsolutas}
\scalebox{0.65}{\input{distribuciones_graficas/img/histograma_frecuencia_absoluta}}}\qquad
\subfigure[Histograma de frecuencias absolutas acumuladas.]{\label{g:histogramaacumuladas}
\scalebox{0.65}{\input{distribuciones_graficas/img/histograma_frecuencia_acumulada}}}\\
\subfigure[Polígono de frecuencias absolutas.]{\label{g:poligonoabsolutasagrupado}
\scalebox{0.65}{\input{distribuciones_graficas/img/poligono_frecuencia_absoluta_agrupado}}}\qquad
\subfigure[Polígono de frecuencias absolutas acumuladas]{\label{g:poligonoacumuladasagrupado}
\scalebox{0.65}{\input{distribuciones_graficas/img/poligono_frecuencia_acumulada_agrupado}}}
\caption{Histograma y polígonos asociados para datos agrupados.}
\end{figure}

Para variables cualitativas y cuantitativas discretas también se
pueden usar las superficies representativas; de éstas, las más
empleadas son los \emph{sectores circulares}.


\subsubsection{Sectores circulares o diagrama de sectores}

Es una representación en la que un círculo se divide en sectores, de
forma que los ángulos, y por tanto las áreas respectivas, sean
proporcionales a la frecuencia.

\begin{ejemplo}
Se está haciendo un estudio en una población del grupo sanguíneo de sus ciudadanos. Para ello disponemos
de una muestra de 30 personas, con los siguientes resultados: 5 personas con grupo 0, 14 con grupo A, 8 con grupo B y  3 con grupo AB.
El el diagrama de sectores de frecuencias relativas correspondiente aparece en la figura~\ref{g:diagramasectoresgruposanguineo}.

\begin{figure}[h!]
\centering
\scalebox{0.7}{\input{distribuciones_graficas/img/diagrama_sectores_grupo_sanguineo}}
\caption{Diagrama de sectores de frecuencias relativas del grupo sanguíneo.}
\label{g:diagramasectoresgruposanguineo}
\end{figure}
\end{ejemplo}


\subsubsection{Diagrama de cajas y datos atípicos}
Los datos extremadamente altos o bajos, en comparación con los del
resto de la muestra, reciben el nombre de datos influyentes o
\emph{datos atípicos}. Tales datos que, como su propio nombre
indica, pueden modificar las conclusiones de un estudio, deben ser
considerados atentamente antes de aceptarlos, pues no pocas veces
podrán ser, simplemente, datos erróneos. La representación gráfica
más apropiada para detectar estos datos es el \emph{diagrama de
cajas}. Este diagrama está formado por una caja que contiene el 50\%
de los datos centrales de la distribución, y unos segmentos que
salen de la caja, que indican los límites a partir de los cuales los
datos se consideran atípicos. En la figura \ref{g:cajas} se puede
observar un ejemplo en el que aparecen dos datos atípicos.

\begin{figure}[h!]
\begin{center}
\scalebox{0.8}{\input{distribuciones_graficas/img/diagrama_caja}}
\caption{Diagrama de cajas para una muestra de recién nacidos.
Existen dos niños con pesos atípicos, uno con peso extremadamente
bajo $1.9$ kg, y otro con peso extremadamente alto $4.3$ kg.}
\label{g:cajas}
\end{center}
\end{figure}

\clearpage
\newpage

\section{Ejercicios resueltos}
\begin{enumerate}[leftmargin=*]

\item  En una encuesta a 25 matrimonios sobre el número de hijos que tenían se obtuvieron los siguientes datos:
\begin{center}
1, 2, 4, 2, 2, 2, 3, 2, 1, 1, 0, 2, 2, 0, 2, 2, 1, 2, 2, 3, 1, 2, 2, 1, 2
\end{center}
Se pide:
\begin{enumerate}
\item Crear un conjunto de datos con la variable \variable{hijos} e introducir los datos.

\item Construir la tabla de frecuencias.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Estadísticos\flecha Distribuciones de frecuencias\flecha Tabla de frecuencias (datos
numéricos no agrupados)} .
\item En el cuadro de diálogo que aparece, seleccionar la variable \variable{hijos} y hacer click en el botón
\boton{Aceptar}.
\end{enumerate}}
\end{indicacion}

\item  Dibujar el diagrama de barras de las frecuencias absolutas.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Gráficas\flecha Gráfica de barras}.
\item En el cuadro de diálogo que aparece, seleccionar la variable \variable{hijos} y hacer click en el botón
\boton{Aceptar}.
\end{enumerate}}
\end{indicacion}

\item Para la misma tabla de frecuencias anterior, dibujar también el diagrama de barras de las frecuencias relativas, el de
absolutas acumuladas y el de relativas acumuladas, además de sus correspondientes polígonos.
\begin{indicacion}{Repetir los pasos del apartado anterior activando la opción \opcion{Frecuencias relativas} si se desea el diagrama de barras
de frecuencias relativas, activando la opción \opcion{Frecuencias acumuladas} si se desea el diagrama de barras de
frecuencias acumuladas y activando la opción \opcion{Polígono} para obtener el polígono asociado.}
\end{indicacion}
\end{enumerate}

\item En un hospital se realizó un estudio sobre el número de personas que ingresaron en urgencias cada día del mes de
noviembre. Los datos observados fueron:
\begin{center}
15, 23, 12, 10, 28, 50, 12, 17, 20, 21, 18, 13, 11, 12, 26 \\
30, 6, 16, 19, 22, 14, 17, 21, 28, 9, 16, 13, 11, 16, 20
\end{center}
Se pide:

\begin{enumerate}
\item  Crear un conjunto de datos con la variable \variable{urgencias} e introducir los datos.

\item  Dibujar el diagrama de cajas. ¿Existe algún dato atípico? En el caso de que exista, eliminarlo y proceder con los
siguientes apartados.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Gráficas\flecha Diagrama de cajas}.
\item En el cuadro de diálogo que aparece, seleccionar la variable \variable{urgencias}, marcar la opción
\opcion{Identificar atípicos con el ratón} y hacer click sobre el botón \boton{Aceptar}.
\item En la ventana que aparece con el diagrama de barras hacer click sobre el dato atípico para identificarlo.
\item Seleccionar el menú \menu{Datos\flecha Conjunto de datos activo\flecha Borrar fila(s) del conjunto de datos}.
\item En el cuadro de diálogo que aparece introducir el índice del individuo atípico en el campo \campo{Índices o
nombres de la(s) fila(s) para borrar} y hacer click en el botón \boton{Aceptar}.
\end{enumerate}}
\end{indicacion}

\item Construir la tabla de frecuencias agrupando en 5 clases.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Estadísticos->Distribuciones de frecuencias->Tabla de frecuencias (datos numéricos
agrupados)}.
\item En el cuadro de diálogo que aparece seleccionar la variable \variable{urgencias}, marcar la opción \opcion{Nº de
intervalos}, introducir el número deseado de intervalos en el campo \campo{Intervalos} y hacer click sobre el botón
\boton{Aceptar}
\end{enumerate}}
\end{indicacion}

\item  Dibujar el histograma de frecuencias absolutas correspondiente a la tabla anterior.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Gráficas\flecha Histograma}.
\item En el cuadro de diálogo que aparece seleccionar la variable \variable{urgencias}, marcar la opción \opcion{Nº de
intervalos}, introducir el número deseado de intervalos en el campo \campo{Intervalos}, poner el título deseado en el
campo \campo{Título} y hacer click sobre el botón \boton{Aceptar}.
\end{enumerate}}
\end{indicacion}

\item Para la misma tabla de frecuencias anterior, dibujar también el histograma de las frecuencias relativas, el de
absolutas acumuladas y el de relativas acumuladas, además de sus correspondientes polígonos.
\begin{indicacion}{Repetir los pasos del apartado anterior activando la opción \opcion{Frecuencias relativas} si se desea el histograma
de frecuencias relativas, activando la opción \opcion{Frecuencias acumuladas} si se desea el histograma de
frecuencias acumuladas y activando la opción \opcion{Polígono} para obtener el polígono asociado.}
\end{indicacion}
\end{enumerate}

\item Los grupos sanguíneos de una muestra de 30 personas son:
\begin{center}
A, B, B, A, AB, 0, 0, A, B, B, A, A, A, A, AB,\\
A, A, A, B, 0, B, B, B, A, A, A, 0, A, AB, 0. 
\end{center}
Se pide:
\begin{enumerate}
\item Crear un conjunto de datos con la variable \variable{grupo\_sanguineo} e introducir los datos.

\item Construir la tabla de frecuencias.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Estadísticos->Distribuciones de frecuencias->Tabla de frecuencias (datos categóricos)}.
\item En el cuadro de diálogo que aparece seleccionar la variable \variable{grupo\_sanguineo} y hacer click sobre el
botón \boton{Aceptar}
\end{enumerate}}
\end{indicacion}

\item Dibujar el diagrama de sectores.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Gráficas\flecha Gráfica de sectores}.
\item En el cuadro de diálogo que aparece, seleccionar la variable \variable{grupo\_sanguineo} y hacer click sobre el
botón \boton{Aceptar}.
\end{enumerate}}
\end{indicacion}
\end{enumerate}

\item  En un estudio de población se tomó una muestra de 27 personas, y se les preguntó por su edad y estado civil,
obteniendo los siguientes resultados:
\begin{center}
\begin{tabular}{|l|rrrrrrrrr|}
\hline
Estado civil & \multicolumn{9}{c|}{Edad}\\
\hline
Soltero    & 31 & 45 & 35 & 65 & 21 & 38 & 62 & 22 & 31 \\
Casado     & 62 & 39 & 62 & 59 & 21 & 62 &    &    &    \\
Viudo      & 80 & 68 & 65 & 40 & 78 & 69 & 75 &    &    \\
Divorciado & 31 & 65 & 59 & 49 & 65 &    &    &    &    \\
\hline
\end{tabular}
\end{center}

Se pide:
\begin{enumerate}
\item Crear un conjunto de datos con la variables \variable{estado\_civil} y \variable{edad} e introducir los datos.
\item Dibujar los diagramas de cajas de la edad según el estado civil. ¿Existen datos atípicos? ¿En qué grupo hay mayor
dispersión?
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Gráficas\flecha Diagrama de cajas}.
\item En el cuadro de diálogo que aparece, seleccionar la variable \variable{edad}, marcar la opción
\opcion{Identificar atípicos con el ratón} y hacer click sobre el botón \boton{Gráfica por grupos}.
\item En el cuadro de diálogo que aparece, seleccionar la variable \variable{estado\_civil} y hacer click sobre el
botón \boton{Aceptar}.
\item En la ventana que aparece con los diagramas de barras hacer click sobre el dato atípico para identificarlo.
\end{enumerate}}
\end{indicacion}
\end{enumerate}

\end{enumerate}


\section{Ejercicios propuestos}
\begin{enumerate}[leftmargin=*]

\item  El número de lesiones padecidas durante una temporada por cada jugador de un equipo de fútbol fue el siguiente:
\begin{center}
0, 1, 2, 1, 3, 0, 1, 0, 1, 2, 0, 1, 1, 1, 2, 0, 1, 3, 2, 1, 2, 1, 0, 1
\end{center}

Se pide:
\begin{enumerate}
\item Construir la tabla de frecuencias.
\item Dibujar el diagrama de barras de las frecuencias relativas y de frecuencias relativas acumuladas.
\item Dibujar el diagrama de sectores.
\end{enumerate}

\item Para realizar un estudio sobre la estatura de los estudiantes universitarios, seleccionamos, mediante un proceso
de muestreo aleatorio, una muestra de 30 estudiantes, obteniendo los siguientes resultados (medidos en centímetros):
\begin{center}
179, 173, 181, 170, 158, 174, 172, 166, 194, 185,\\
162, 187, 198, 177, 178, 165, 154, 188, 166, 171,\\
175, 182, 167, 169, 172, 186, 172, 176, 168, 187.
\end{center}

Se pide:
\begin{enumerate}
\item  Dibujar el histograma de las frecuencias absolutas agrupando desde 150 a 200 en clases de amplitud 10.
\item  Dibujar el diagrama de cajas. ¿Existe algún dato atípico?.
\end{enumerate}

\end{enumerate}
